智能论文笔记

Machine Learning-based Automatic Annotation and Detection of COVID-19 Fake News

Mohammad Majid Akhtar , Bibhas Sharma , Ishan Karunanayake , Rahat Masood , Muhammad Ikram , Salil S. Kanhere

分类：机器学习

2022-09-07

Covid-19影响了世界各地，尽管对爆发的错误信息的传播速度比病毒更快。错误的信息通过在线社交网络（OSN）传播，通常会误导人们遵循正确的医疗实践。特别是，OSN机器人一直是传播虚假信息和发起网络宣传的主要来源。现有工作忽略了机器人的存在，这些机器人在传播中充当催化剂，并专注于“帖子中共享的文章”而不是帖子（文本）内容中的假新闻检测。大多数关于错误信息检测的工作都使用手动标记的数据集，这些数据集很难扩展以构建其预测模型。在这项研究中，我们通过在Twitter数据集上使用经过验证的事实检查的陈述来标记数据来克服这一数据稀缺性挑战。此外，我们将文本功能与用户级功能（例如关注者计数和朋友计数）和推文级功能（例如Tweet中的提及，主题标签和URL）结合起来，以充当检测错误信息的其他指标。此外，我们分析了推文中机器人的存在，并表明机器人随着时间的流逝改变了其行为，并且在错误信息中最活跃。我们收集了1022万个Covid-19相关推文，并使用我们的注释模型来构建一个广泛的原始地面真实数据集以进行分类。我们利用各种机器学习模型来准确检测错误信息，我们的最佳分类模型达到了精度（82％），召回（96％）和假阳性率（3.58％）。此外，我们的机器人分析表明，机器人约为错误信息推文的10％。我们的方法可以实质性地暴露于虚假信息，从而改善了通过社交媒体平台传播的信息的可信度。

translated by 谷歌翻译

Active SLAM: A Review On Last Decade

Muhammad Farhan Ahmed , Khayyam Masood , Vincent Fremont

分类：机器人

2022-12-22

This article presents a novel review of Active SLAM (A-SLAM) research conducted in the last decade. We discuss the formulation, application, and methodology applied in A-SLAM for trajectory generation and control action selection using information theory based approaches. Our extensive qualitative and quantitative analysis highlights the approaches, scenarios, configurations, types of robots, sensor types, dataset usage, and path planning approaches of A-SLAM research. We conclude by presenting the limitations and proposing future research possibilities. We believe that this survey will be helpful to researchers in understanding the various methods and techniques applied to A-SLAM formulation.

translated by 谷歌翻译

Managing Temporal Resolution in Continuous Value Estimation: A Fundamental Trade-off

Zichen Zhang , Johannes Kirschner , Junxi Zhang , Francesco Zanini , Alex Ayoub , Masood Dehghan , Dale Schuurmans

分类：机器学习 | (统计)机器学习

2022-12-17

A default assumption in reinforcement learning and optimal control is that experience arrives at discrete time points on a fixed clock cycle. Many applications, however, involve continuous systems where the time discretization is not fixed but instead can be managed by a learning algorithm. By analyzing Monte-Carlo value estimation for LQR systems in both finite-horizon and infinite-horizon settings, we uncover a fundamental trade-off between approximation and statistical error in value estimation. Importantly, these two errors behave differently with respect to time discretization, which implies that there is an optimal choice for the temporal resolution that depends on the data budget. These findings show how adapting the temporal resolution can provably improve value estimation quality in LQR systems from finite data. Empirically, we demonstrate the trade-off in numerical simulations of LQR instances and several non-linear environments.

translated by 谷歌翻译

Lisan: Yemenu, Irqi, Libyan, and Sudanese Arabic Dialect Copora with Morphological Annotations

Mustafa Jarrar , Fadi A Zaraket , Tymaa Hammouda , Daanish Masood Alavi , Martin Waahlisch

分类：自然语言处理

2022-12-13

This article presents morphologically-annotated Yemeni, Sudanese, Iraqi, and Libyan Arabic dialects Lisan corpora. Lisan features around 1.2 million tokens. We collected the content of the corpora from several social media platforms. The Yemeni corpus (~ 1.05M tokens) was collected automatically from Twitter. The corpora of the other three dialects (~ 50K tokens each) came manually from Facebook and YouTube posts and comments. Thirty five (35) annotators who are native speakers of the target dialects carried out the annotations. The annotators segemented all words in the four corpora into prefixes, stems and suffixes and labeled each with different morphological features such as part of speech, lemma, and a gloss in English. An Arabic Dialect Annotation Toolkit ADAT was developped for the purpose of the annation. The annotators were trained on a set of guidelines and on how to use ADAT. We developed ADAT to assist the annotators and to ensure compatibility with SAMA and Curras tagsets. The tool is open source, and the four corpora are also available online.

translated by 谷歌翻译

Explainability via Short Formulas: the Case of Propositional Logic with Implementation

Reijo Jaakkola , Tomi Janhunen , Antti Kuusisto , Masood Feyzbakhsh Rankooh , Miikka Vilander

分类：人工智能

2022-09-03

我们从逻辑和公式大小方面概念化了解释性，在非常一般的环境中给出了许多相关的解释性定义。我们的主要兴趣是所谓的特殊解释问题，旨在解释输入模型中输入公式的真实价值。解释是一个最小尺寸的公式，（1）与输入模型上的输入公式一致，（2）将所涉及的真实价值传输到全球输入公式，即每个模型上。作为一个重要的例子，我们在这种情况下研究了命题逻辑，并表明在多项式层次结构的第二级中，特殊的解释性问题是完整的。我们还将在答案集编程中提供了此问题的实施，并研究了其与解释N-Queens和主导集合问题的答案有关的能力。

translated by 谷歌翻译

Efficient Approximation of Expected Hypervolume Improvement using Gauss-Hermite Quadrature

Alma Rahat , Tinkle Chugh , Jonathan Fieldsend , Richard Allmendinger , Kaisa Miettinen

分类：机器学习 | 人工智能

2022-06-15

最近已经提出了许多用于对计算上昂贵问题进行多目标优化的方法。通常，每个目标的概率替代物是由初始数据集构建的。然后，替代物可用于在目标空间中为任何解决方案产生预测密度。使用预测密度，我们可以根据解决方案来计算预期的超量改进（EHVI）。使EHVI最大化，我们可以找到接下来可能会缴纳的最有希望的解决方案。有用于计算EHVI的封闭式表达式，并在多元预测密度上整合。但是，它们需要分区目标空间，对于三个以上的目标而言，这可能会非常昂贵。此外，对于预测密度依赖的问题，没有封闭形式的表达式，可以捕获目标之间的相关性。在这种情况下，使用蒙特卡洛近似值，这并不便宜。因此，仍然需要开发新的准确但便宜的近似方法。在这里，我们研究了使用高斯 - 温石正交近似EHVI的替代方法。我们表明，对于独立和相关的预测密度，对于一系列流行的测试问题，它可以是蒙特卡洛的准确替代品。

translated by 谷歌翻译

Industry 4.0: Challenges and success factors for adopting digital technologies in airports

Jia Hao Tan , Tariq Masood

分类：机器人

2021-12-29

随着在过去十年的行业4.0技术的出现，机场经历了数字化，以利用这些技术的声称益处，如改善的运营效率和乘客经验。正在进行的Covid-19随着其变体的出现（例如三角洲，omicron）加剧了机场需要采用非接触式和机器人技术的新技术，以便在这种大流行期间提供旅行。然而，了解最近的挑战和成功因素，以便在机场采用数字技术。因此，通过对世界各地的机场运营商和管理人员的行业调查（n = 102,0.754，0.754 <Composite可靠性<0.892;在Covid-19期间进行），本研究确定了采用行业4.0技术（N = 20）所面临的挑战这加强了对机场支持技术采用的最佳实践或成功因素的理解。广泛使用的技术，组织环境（TOE）框架被用作调查问卷的定量部分的理论上。互补的定性部分用于支撑并延长调查结果。该行业调查是首要讨论，了解机场运营商在机场采用行业4.0技术方面的实施挑战。调查结果表明，尽管在机场采用各种行业4.0技术的通用挑战，但行业4.0技术在机场也没有在机场中实现相似的。

translated by 谷歌翻译

Adoption of Industry 4.0 technologies in airports -- A systematic literature review

Jia Hao Tan , Tariq Masood

分类：机器人

2021-12-28

机场一直不断发展和采用数字技术，以提高运营效率，增强乘客经验，从现有基础设施产生辅助收入和提升能力。 Covid-19 Pandemase也挑战机场和航空利益相关者，以适应和管理新的业务挑战，例如促进非接触式旅游经验和确保业务连续性。使用行业4.0技术的数字化为机场提供机会，以解决与Covid-19大流行相关的短期挑战，同时也为未来的危机做准备未来的长期挑战。通过对102条有关文章的系统文献综述，我们讨论了当前在机场，相关挑战以及未来的研究方向上采用行业4.0技术的现状。本综述结果表明，行业4.0技术的实施正在慢慢获得机场环境的牵引力，并在发展未来机场的数字转型旅程中继续保持相关。

translated by 谷歌翻译

Automated Detection of GDPR Disclosure Requirements in Privacy Policies using Deep Active Learning

Tamjid Al Rahat , Tu Le , Yuan Tian

分类：人工智能

2021-11-08

由于GDPR于2018年5月生效以来，公司已经致力于他们的数据实践来遵守本隐私法。特别是，由于隐私政策是用户理解和控制隐私的基本沟通渠道，因此许多公司在强制执行GDPR后更新了他们的隐私政策。但是，大多数隐私政策都是详细的，充满了术语，并模糊地描述了公司的数据实践和用户权利。因此，如果他们符合GDPR，则目前尚不清楚。在本文中，我们创建了一个包含18个GDPR要求的1,080个网站的隐私政策数据集，并开发了一种基于卷积神经网络（CNN）的模型，可以将隐私政策分类为89.2％。我们应用我们的模型，以对隐私政策的合规性进行测量。我们的结果表明，即使在GDPR生效之后，即使在GDPR生效之后，97％的网站仍然无法遵守GDPR的至少一个要求。

translated by 谷歌翻译

Deepfakes Generation and Detection: State-of-the-art, open challenges, countermeasures, and way forward

Momina Masood , Marriam Nawaz , Khalid Mahmood Malik , Ali Javed , Aun Irtaza

分类：机器学习

2021-02-25

方便地访问社交媒体上的视听内容，结合了现代工具的可用性，如Tensorflow或Cheras，开源训练型和经济的计算基础设施，以及深度学习（DL）方法的快速演变，特别是生成的对抗性网络（GAN）使得可以生成DeepFakes来传播欺骗，复仇色情，金融欺诈，恶作剧，并扰乱政府运作。现有调查主要集中在检测到DeepFake图像和视频。本文提供了对基于工具和机器学习（ML）基于DeepFake发电的方法的全面审查和详细分析，以及用于检测音频和视觉泡泡的这种操纵的方法。对于每类DeepFake，我们讨论与操纵方法，当前公共数据集和绩效评估的关键标准相关的信息以及其结果。此外，我们还讨论了开放的挑战，并列举了未来的指导，以引导未来的研究人员对需要考虑的问题，以改善深蓝生成和检测的域。预计这项工作有望帮助读者了解DeepFakes的创作和检测机制，以及他们当前的限制和未来方向。

translated by 谷歌翻译